化学模式识别方法在中药质量控制研究中的应用进展
中药具有系统的科学理论、独特的辨证论治思想,历经了数千年的发展和应用,蕴含着深厚的人文底蕴和科学内涵,在中医药理论指导下引入现代科学、实现中药现代化是中药发展的必由之路[1]。中药质量控制与评价是中药现代化研究的关键问题之一,是实现中药标准化的重要基础,然而中药本身化学成分复杂,同时基原品种、产地来源、生长环境、采收季节、加工炮制工艺等诸多因素进一步增加了中药质量控制与评价研究的难度。随着现代科学技术特别是仪器分析、计算机科学、化学计量学等学科的迅速发展,中药质量控制与评价研究的新思路与新方法不断出现,有效地促进了中药标准化研究。针对中药本身的复杂性及特有的药性理论基础,在中医药理论指导下寻找一种适用于中药特点的质量控制与评价方法,解决中药质量控制的数据化、标准化难题,并在此基础上用科学的语言阐述中药的基础理论是中药现代化亟待解决的关键问题之一。为完善中药质量标准体系,促进中医药产业的健康发展,刘昌孝院士[2-3]提出中药质量标志物(Q-markers)的这一新概念,为规范中药质量的研究和标准的建立奠定了基础,有利于中药全程质量控制和质量溯源体系的建立。
化学计量学是以计算机和近代计算技术为基础的一门新兴交叉学科,通过统计学或数学方法在化学体系的测量值与体系的状态之间建立联系,在中药鉴别、定性表征、质量控制、组效关系等研究中均有广泛应用,尤其在中药的质量控制与评价研究中具有重要意义[4]。化学模式识别是化学计量学的重要组成部分,也是筛选中药Q-markers的重要数学方法,按照有无训练可划分为无监督的模式识别和有监督的模式识别方法。前者指在无样品类别信息的情况下,进行学习或训练,获取分类信息的方法;后者则根据样品特征和已知类别的样品(训练集),用特定的方法或模型进行学习或训练,从而建立分类模型,再根据获取的分类模型和未知样品的特征,对未知样品进行分类[5]。其中无监督的模式识别方法包括聚类分析(cluster analysis,CA)、主成分分析(principalcomponent analysis,PCA)等。有监督的模式识别方法包括簇类独立软模式法(soft independent modeling of class analogy,SIMCA)、判别分析(discriminantanalysis,DA)、偏最小二乘法-判别分析(partial least squares discriminantanalysis,PLS-DA)、人工神经网络(artificial neural networks,ANNs)等[6-7]。本文就近年来化学模式识别方法在中药质量控制方面的应用展开综述,为中药质量控制研究提供参考。
1 化学模式识别
1.1 无监督模式识别
1.1.1 CA CA属于无监督模式识别方法,将样本数据在没有先验知识的前提下,基于样本所表现的变量特征,按照相似度进行归类。根据聚类途径不同,CA可分为系统聚类法(HCA)和动态聚类法[8]。常用的CA方法包括HCA、K-均值聚类分析和Ward’s method等,其中K-均值聚类分析属于典型的划分聚类分析方法,其首先给予数据集初始划分,再以此为起始点,通过迭代不断调整样本归属,最终达到最优目标函数,进而获取聚类结果。Ward’s method属于分层聚类分析方法的一种,其着眼于将聚类分析作为1个方差分析的问题,而不是通过测量距离或者关联度,这种方法不需要计算集群中心,而是最小化群集方差(相对于每个群集的质心)[9-10]。CA常用于数据的初步探索性分析,具有直观、结论形式简明的优点[11]。然而聚类之前须对变量进行预处理,采用不同的标准化方法获取的聚类结果不同。当样本量较大时,聚类结论存在一定的困难,无法对分类结果的准确性进行预测[3,11]。
1.1.2 PCA PCA[12]为双线性模型方法,利用方差最大原则,对原始数据所包含的多个自变量进行线性拟合,以新的低维变量代替原始高维变量,即主成分,各主成分之间互不相关,从而这些主成分能够反映原始变量的绝大部分信息,且所含的信息互不重叠,进而实现数据的降维。高维数据可以通过以下方程进行降维。
X=CST+E
X为原始数据,C为得分矩阵,ST为载荷矩阵转置阵,E为误差矩阵
每个样本对象在每个主成分上都有1个值,同时每个变量在每个主成分上均有1个载荷值,因此PC1与PC2的双标图(biplot)描述了最大的数据差异,并提供了样本与荷载变量的比较,可用于获取样本聚类的相似性以及载荷变量间、载荷变量与样本之间的关联等相关信息[13]。PCA属于探索性数据分析方法(exploratory data analysis)的范畴[14],其采用少数综合变量来代替原始的众多变量,具有可信度高、灵活性强,侧重于综合评价信息的贡献影响力的特点[3,11]。但是当分组过多时,PCA可视化的分类效果则会大大降低;原始数据间的相关性较弱时,无法进行良好的降维,获取的主成分无法综合地反映原始变量信息;当存在许多未被检测的变量时,如代谢组学研究中代谢产物只能在某些样本中发现,PCA获取的分析结果也会存在问题[15]。然而PCA仍然是一种良好的探索性数据分析方法,可为有监督的模式识别方法奠定分类依据。近年来,该方法在中药质量控制方面具有广泛的应用。
1.2 有监督模式识别
1.2.1 SIMCA SIMCA[16]是一种有监督的数据分类方法,每个类别独立使用PCA建立模型,保留足够数量的主成分,进而产生了可用于每个类别的专属模型。因此,一类空间构建的边界可用于判别拟合分类模型样本与在选定置信区间内不属于该类别的样本。每个预测样本的信息可被划分成2个分量,一部分通过分类模型解释,另一部分通过残差解释,以表明预测样本与模型之间的拟合情况。1个SIMCA模型由1个PCA模型集组成,数据集中每个分类均有1个PCA模型,每类可具有不同的主成分数目,主成分数目取决于相应类别的数据。每个PCA子模型包含了所有PCA通常部分,如均值向量、缩放信息、预处理(平滑、衍生等)。SIMCA是建立在PCA基础上的有监督模式识别方法,原始数据的变量数和样本数的比例并非十分关键,在计算过程中PCA对其结果起到决定性作用。复杂的数据和不确定的测量信息均会导致显著主成分数目的估计困难,对于每个目标分类,主成分过多或者过少均会降低SIMCA模型的分类及预测能力,该缺点在一定程度上影响了SIMCA的广泛使用[17-18]。
1.2.2 PLS-DA PLS是一种寻找独立变量X与独立变量Y之间基本联系的方法,这个模型不仅考虑了X变量,同时也考虑了X变量与Y变量之间的关联,以PCA为数学基础,能够在自变量存在多重相关性的条件下进行回归建模。PLS-DA是PLS的一种转化形式,采用分类响应变量Y来提高类别间的分离,计算校正模型的数据包括校正误差均方根、交叉验证误差均方根及测定的相关系数[13]。PLS-DA是一种有监督的模式识别方法,适用于区分两类及更多类别的样本,同时具备线性判别分析的分类能力又兼具PLS降维、降噪的优势[19]。此外,PLS-DA的优势还在于其更强大的解释能力,尤其是在原始变量方面。
1.2.3 支持向量机(support vector machine,SVM)
SVW是一种通用的,特别是用于非线性数据的分析方法,基于使用1个核函数将原始数据映射到1个高维特征空间,并在该空间构建最佳的分类超平面[20]。SVM主要思想是针对两种分类问题,目标是在高维空间寻找1个最优分类超平面,以保证最小的分类错误率。SVM建模的目的是确定在2个分类之间具有最大余量的最佳超平面,其可以应用于线性和非线性数据集和分离多个类。支持向量机判别分析(SVMDA)是建立在SVM基础上的一种有监督的分类方法,通过在2个类之间生成超平面边界,将样本表示为空间中的点,超平面使类之间的距离最大化,并且与校准集中的样本的概率分布无关。SVMDA包括v-支持向量分类(v-support vectorclassification)和c-支持向量分类(c-support vectorclassification)2种分类方法,可较好地解决小样本、高维数、非线性和局部极小点等问题[21]。然而,这种方法通过适当的核函数将原始数据指向了更高维的空间[19]。
1.2.4 ANNs ANNs也称为神经网络,是1个有向拓扑结构和学习规则的动态处理系统,具有自学习、自适应、联想存储、高速寻找优化解等功能优势[22]。目前应用最普遍的ANNs是误差反向传播人工神经网络(backpropagation artificial neural network,BP-ANN)、自组织映射神经网络(selforganising maps,SOMs,也称Kohonen网络)和对偶传播人工神经网络(counter-propagationartificial neural networks,CP-ANNs)。BP-ANN是典型的多层网络,分为输入层、隐含层和输出层,层与层之间多采用全互连方式,同一层单元间不存在相互连接[23]。Kohonen网络是自组织竞争神经网络的一种,该网络为无监督性学习网络,能够识别环境特征并自动聚类;CP-ANNs是基于Kohonen网络发展起来的,同时能够处理非监督性和监督性分类问题[7]。基因算法(遗传算法)是一种自适应启发式群体型、概率性迭代全局收敛算法,可优化神经网络中神经元与迭代次数,使神经网络能够快速收敛,并且可以避免过训练问题[24-25]。此外,径向基函数(radial basis function,RBF)神经网络,在中药质量、指纹图谱研究及药材真伪优劣鉴别中也得到了广泛的应用[26]。
2 应用软件
SPSS统计软件是目前最常用的统计分析软件之一,可实现PCA、CA、Ward’s method、RBF神经网络、因子分析等多种模式识别分析[26-27]。矩阵实验室(Matlab)具有语言简洁紧凑、运算符丰富、程序设计自由度大、程序可移植性好、数据可视化简单、拥有强大的工具箱等特点,是一种实用性强的科学计算工具,通过程序的编写及工具盒可实现大量的化学模式识别分析,如PCA、BP-ANN、Kohonen网络、CP-ANNs、SVM、PLS-DA、SIMCA、线性判别分析(LDA)、K-最近邻法(KNN)等,其中Kohonen网络、CP-ANNs可通过Kohonen and CP-ANN toolbox实现(http://michem.disat.unimib. it/chm/download/download.htm)[13,28-29]。多元数据分析软件SIMCA是1款过程分析和质量设计的工具软件,能够从众多数据中获取关键信息,可实现PCA、CA、PLS-DA、正交偏最小二乘法判别分析(OPLS-DA)、SIMCA等多种模式识别分析,该软件无需程序编写,具有操作简单、方便快捷的特点[30-31]。
3 化学模式识别在中药质量控制中的应用
3.1 产地来源
我国疆域辽阔,具有复杂的自然地理环境,日照、温度、土质等环境不尽相同,为药用植物及动物的生长提供了必要的有利条件,同时也使中药材的生产和质量具有一定的地域性[32]。这也是古今医家都非常重视“道地药材”的缘故。如表1所示,近年来化学模式识别方法广泛应用在中药不同产地的研究中,常联合的仪器分析方法包括HPLC、核磁共振光谱(NMR)、红外光谱(IR)、直接电离质谱(DI-MS)、电感耦合等离子体质谱法(ICP-MS)等,化学模式识别方法涉及CA、PCA、DA、KNN、PLS-DA、最小二乘支持向量机(LS-SVM)等,其中最常用的化学模式识别方法为PCA。
3.2 基原
中药基原是影响中药质量与疗效的最基本的内在因素之一。中药基原物种混乱直接影响到临床用药的有效性和安全性,对其进行基原鉴别,从源头上控制质量,是中药资源开发、中药生产及中药质量标准制定的必要环节[43]。葛根与粉葛长期以来均作为葛根药材使用,两者基原不同,分别来源于豆科植物野葛Pueraria lobta (Willd.) Ohwi和甘葛藤Pueraria thomsonii Benth. 的干燥根,自《中国药典》2005年版开始将二者单独列出[44]。Wong等[19]采用高效薄层色谱法(HPTLC)与UPLC对葛根和粉葛进行分析,利用KNN、PLS-DA、PCA-DA、SVM-DA、SIMCA 5种化学模式识别方法比较2种色谱法的分类效果,结果显示HPTLC与UPLC分类模型结果具有相似性,前4种模式识别方法对于葛根和粉葛具有良好的识别率,而SIMCA模型的分类效果最差。苏浬等[45]采用HPLC结合PCA,对贡菊、滁菊、杭菊和亳菊4种基原的药用菊花中特征成分进行分析,该方法能大体上将不同来源的菊花按基原进行分类,为菊花的基原鉴定提供了研究思路。
3.3 炮制
中药炮制蕴含着中医整体观和辨证论治理念,是中医药学的特色之一,也是中药临床应用的特点和必然要求,中药通过炮制可达到增效减毒、改变药物性能、引药入经及扩大应用范围等目的[46]。Zhou等[47]采用HPLC指纹图谱结合HCA、PCA、PLS-DA 3种化学模式识别方法对炮制前后的播娘蒿种子进行了比较分析,研究表明生品与炮制品的化学成分具有一定的差异性,炮制后产生了许多新的化学成分,并获取了重要差异成分,进而阐明了播娘蒿的炮制机制。孙立丽等[48]建立了何首乌UPLC指纹图谱,并在此基础上成功建立了5种化学模式识别(PCA、CP-ANN、PLS-DA、SVMDA、CP-ANN)模型,并采用有监督的CP-ANN模式识别模型下获取的Kohonen权重值为研究指标,探讨了何首乌炮制前后的整体化学成分变化,为何首乌的炮制研究提供了研究思路与实验方法。
3.4 真伪鉴别
中药真伪问题是影响中药质量的另一重要因素,“真”即正品,指国家药品标准所收载的中药品种,“伪”即伪品,凡不符合国家药品标准规定的中药品种均应视为伪品[49]。女贞子来源于木犀科植物女贞Ligustrum lucidum Ait. 的干燥成熟果实,收载于《中国药典》2015年版一部中,为养阴常用中药之一。日本女贞Ligustrumjaponicum Thunb. 与女贞来源于同科植物,果实性状极为相似,但日本女贞误用后可引起中毒,曹运姣等[50]建立了紫外谱线组法-化学模式识别鉴别女贞子与日本女贞的方法,在PCA的基础上对样本进行Q型聚类分析,结果表明二者之间有显著性差异,且分类界限明显;建立了Fisher判别分析,可用于女贞子与日本女贞子的鉴别。
3.5 其他应用
Shan等[51]采用化学模式识别方法综合评价2~6年生于不同季节采收的人参HPLC指纹图谱,建立的PCA、HCA 2种化学模式识别方法为不同生长年限及采收季节的人参样本提供了质量比较和有效的区分方法。顾志荣等[52]利用13C-NMR特征图谱结合PCA、模糊聚类分析(FCA)建立不同生长年限当归的鉴别与质量评价方法,能够对来源于不同生长年限的当归进行快速、准确地鉴别。汤彦丰等[53]利用BP-ANN对傅里叶红外色谱法数据进行处理,该方法可以有效地鉴别野生和栽培的紫花地丁。
3.6 化学模式识别应用过程中的技术问题
3.6.1 数据预处理方法 在建立化学模式识别分类模型之前,通常要对原始数据进行数据预处理,使数据更有利于进行分类运算。标度化方法可使所有变量的变化幅度处于同一个水平上,常用的标度化方法包括范围标度化、自标度化、标准化、变换法、组合法等,其中标准化预处理方法又包括面积归一化、最大归一化等[54]。不同的情况下可采用不同的数据预处理方法,采用的方法取决于数据的来源、问题的类型、化学或物理因素等,不可统而论之[55]。基于Matlab的化学模式识别工具盒中,常用的数据预处理方法有范围标度化、自标度化、中心化等。PLS_Toolbox具有强大的数据预处理功能,除常用的标度化方法外,还包括平滑、衍生、去趋势化、基线(加权最小二乘法)等预处理方法来解决噪音、偏移和基线问题;数据选择类型包括绝对值、log10;多种数据过滤方法包括正交信号校正方法、广义最小二乘加权等[56]。
3.6.2 其他 数量充足、来源可靠、具代表性的中药样本是建立具有广泛应用价值、操作简便规范、优良的识别与预测能力化学模式识别模型的前提条件。建立化学模式识别模型所选的样本量依赖于所选模型、研究的主体、待解决的中药问题等多种因素。同时,由于化学模式识别方法各有其优缺点,若仅使用单一方法则难以避免局限性,因此对于中药质量控制研究,需要建立多种模式识别方法加以互补以达到最佳的质量控制结果。
4 结语与展望
中药本身化学成分复杂,基原品种、产地来源、生长环境、采收季节、加工炮制工艺等诸多因素进一步增加了中药质量控制与评价研究的难度。由于中药本身的特殊性,仅靠传统外观鉴别、显微鉴别及少数有效成分分析鉴定中药的真假优劣具有一定的不准确性[57]。化学模式识别技术可对HPLC、UPLC-Q-TOF/MS、IR、NMR等多种现代仪器分析获取的数据进行客观分析,既可对多个指标进行统计分析,又可将整个图谱信息数量化,进而使其可以被计算机识别与处理,从而可以更加客观地反映中药的质量信息,达到全面控制中药质量的目的。化学模式识别技术已在中药质量控制研究中得到了广泛应用,然而中药的化学模式识别研究工作依然存在很多问题,获取的中药数据量不够或样本信息不可靠是最常见的问题之一,但是毋庸置疑的是化学模式识别技术是一种有效评价中药质量的方法。相关中药样品库和数据库的建立,如中药多基原药材的鉴别方法数据库,以及来源信息确切的中药购置渠道,将大大推进化学模式识别技术在中药质量控制研究工作的顺利展开,对中药的质量控制与评价具有重要现实意义。
参考文献(略)
来 源:孙立丽,王 萌,任晓亮. 化学模式识别方法在中药质量控制研究中的应用进展 [J]. 中草药, 2017, 48(20):4339-4345.